越来越多的研究致力于将机器学习方法应用于电子健康记录(EHR)数据,以完成各种临床任务。这一不断增长的研究领域暴露了所有人EHR数据集可访问性的局限性,以及不同建模框架的可重复性。这些局限性的原因之一是缺乏标准化的预处理管道。模仿是一种以许多研究中使用的原始格式免费获得的EHR数据集。缺乏标准化的预处理步骤是对数据集更广泛采用的重大障碍。它还导致在下游任务中使用不同的队列,从而限制了在类似研究中比较结果的能力。对比研究还使用各种不同的性能指标,可以大大降低比较模型结果的能力。在这项工作中,我们提供了一条端到端完全可定制的管道,以提取,清洁和预处理数据;并预测和评估ICU和非ICU相关临床时间序列预测任务的模拟数据集(MIMIC-IV)的第四版。该工具可在https://github.com/healthylaife/mimic-imic-iv-data-pipeline上公开获得。
translated by 谷歌翻译